Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

 
Information Retrieval: Beim Information Retrieval (IR) geht es darum, relevante Informationen aus einer großen Sammlung von Daten zu finden. IR-Systeme indizieren die Daten und ordnen die Dokumente nach ihrer Relevanz für eine Suchanfrage. Siehe auch Relevanz, Information, Künstliche Intelligenz, KI-Forschung, Wissensrepräsentation.

_____________
Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente.

 
Autor Begriff Zusammenfassung/Zitate Quellen

Stuart J. Russell über Information Retrieval – Lexikon der Argumente

Norvig I 867
Information Retrieval/IR/Norvig/Russell: Information Retrieval (IR) ist die Aufgabe, Dokumente zu finden, die für den Informationsbedarf eines Benutzers relevant sind. Ein Information-Retrieval-System (IR-System) kann charakterisiert werden durch:
1. einen Korpus von Dokumenten. Jedes System muss entscheiden, was es als Dokument behandeln will: einen Absatz, eine Seite oder einen mehrseitigen Text.
2. Suchanfragen, die in einer Anfragesprache gestellt werden. Eine Suchanfrage gibt an, was der Benutzer wissen möchte. Die Anfragesprache kann einfach eine Liste von Wörtern sein, wie z.B. [KI-Buch] oder sie kann eine Phrase von Wörtern angeben, die nebeneinander stehen müssen, wie z.B. ["KI-Buch"], sie kann Boolesche Operatoren enthalten, wie z.B. [KI UND Buch]; sie kann nicht-boolesche Operatoren enthalten, wie z.B. [KI-NÄHE Buch] oder [KI-Buch-Webseite: www.aaai.org].
3. eine Ergebnismenge. Dies ist die Teilmenge von Dokumenten, die das IR-System als relevant für die Anfrage erachtet. Mit "relevant" meinen wir, dass sie für die Anfrage stellende Person, für den in der Anfrage ausgedrückten besonderen Informationsbedarf wahrscheinlich von Nutzen sind.
4. eine Präsentation der Ergebnismenge. Diese kann so einfach wie eine Rangliste von Dokumententiteln oder so komplex wie eine rotierende Farbkarte der Ergebnismenge sein, die auf einen dreidimensionalen Raum projiziert und als zweidimensionale Anzeige dargestellt wird.
Die frühesten IR-Systeme arbeiteten mit einem booleschen Schlüsselwortmodell. Jedes Wort in der Dokumentensammlung wird als boolesches Merkmal behandelt, das "wahr" ist, wenn es im Dokument auftaucht und "falsch" wenn das Wort im Dokument nicht vorkommt.
Norvig I 868
VsBoolean-Modell: Probleme: Erstens ist der Grad der Relevanz eines Dokuments ein einziges Bit, so dass es keine Anleitung gibt, wie man die relevanten Dokumente für die Präsentation anordnet. Zweitens sind boolesche Ausdrücke für Benutzer, die keine Programmierer oder Logiker sind, unbekannt. Drittens kann es selbst für einen geübten Benutzer schwierig sein, eine geeignete Suchanfrage zu formulieren.
Die Lösung: Die meisten IR-Systeme haben das Boolesche Modell aufgegeben und verwenden Modelle, die auf der Statistik der Wortzahlen basieren. Eine Bewertungsfunktion verarbeitet ein Dokument und eine Anfrage und gibt dafür eine numerische Punktzahl zurück; die relevantesten Dokumente haben die höchsten Punktzahlen.
Relevanz/Gewicht: Drei Faktoren beeinflussen das Gewicht eines Suchbegriffs: Erstens die Häufigkeit, mit der ein Suchbegriff in einem Dokument erscheint (auch bekannt als TF für Term-Frequency, dt. Häufigkeit). Für die Suchanfrage [Landwirtschaft in Kansas] erhalten Dokumente, die "Landwirtschaft" häufig erwähnen, höhere Punktzahlen. Zweitens, die inverse Dokumenthäufigkeit des Begriffs oder IDF. Das Wort "in" taucht in fast jedem Dokument auf, hat also eine hohe Dokumenthäufigkeit und damit eine niedrige inverse Dokumenthäufigkeit und ist daher für die Abfrage nicht so wichtig wie "Landwirtschaft" oder "Kansas". Drittens, die Länge des Dokuments. In einem Dokument mit einer Million Wörtern werden wahrscheinlich alle Wörter der Suchanfrage erwähnt, aber möglicherweise geht es nicht wirklich um die eigentliche Suchanfrage. Ein kurzes Dokument, in dem alle Wörter erwähnt werden, ist ein viel zuverlässigerer Kandidat.
Norvig I 870
Verfeinerungen des IR: Eine übliche Verfeinerung ist ein besseres Modell für die Auswirkung der Dokumentlänge auf die Relevanz. Singhal et al. (1996)(1) stellten fest, dass einfache Schemata zur Normalisierung der Dokumentlänge dazu neigen, kurze Dokumente zu sehr und lange Dokumente nicht genug zu bevorzugen. Sie schlagen ein Pivot-Schema zur Normalisierung der Dokumentlänge vor; die Idee ist, dass der Pivot die Dokumentlänge ist, bei der die Normalisierung im alten Stil korrekt ist; Dokumente, die kürzer als diese sind, erhalten einen "Boost" und längere Dokumente eine Strafe.
Stemming-Algorithmen (dt. Eindämmung): Die meisten IR-Systeme schreiben "COUCH" zu "couch" um. Dazu verwenden einige einen Stemming-Algorithmus, um "Couches" sowohl in der Suchanfrage als auch in den Dokumenten auf die Stammform "Couch" zu reduzieren. Dies führt in der Regel zu einem geringen Anstieg im Abruf (in der Größenordnung von 2% für Englisch). Es kann jedoch der Präzision schaden. Zum Beispiel wird die Verkürzung von "stocking" zu "stock" tendenziell die Präzision bei Fragen zu Fußbedeckungen oder Finanzinstrumenten verringern, obwohl sie die Abrufbarkeit bei Fragen zur Lagerhaltung verbessern könnte. Auf Regeln basierende Stemming-Algorithmen (z.B. "-ing" entfernen) können dieses Problem nicht vermeiden, aber auf Wörterbüchern basierende Algorithmen (Nichtentfernen von "-ing", wenn das Wort bereits im Wörterbuch aufgeführt ist) schon. Während "stemming" im Englischen einen kleinen Effekt hat, ist es in anderen Sprachen wichtiger.
Synomyme: Der nächste Schritt besteht darin, Synonyme zu erkennen, wie z.B. "Sofa" für "Couch". Wie beim "stemming" hat dies das Potenzial mehr Treffer in der Abrufaktion zu erzielen, kann aber die Präzision beeinträchtigen. Das Problem ist, dass "Sprachen absolute Synonyme verabscheuen, so wie die Natur ein Vakuum verabscheut" (Cruse, 1986)(2).
Vgl. >Synonymie/Philosophische Theorien.
Metadaten: Als letzte Verfeinerung kann das IR verbessert werden, indem Metadaten berücksichtigt werden, d.h. Daten außerhalb des Textes des Dokumentes. Beispiele hierfür sind vom Menschen zur Verfügung gestellte Schlüsselwörter und Publikationsdaten. Im Web sind Hypertext-Links zwischen Dokumenten eine entscheidende Informationsquelle.
Norvig I 884
Geschichte: Der Bereich des Information Retrieval erfährt ein erneutes wachsendes Interesse, das durch die breite Nutzung der Internetsuche ausgelöst wurde. Robertson (1977)(3) gibt einen frühen Überblick und führt das Wahrscheinlichkeitsranking-Prinzip ein. Von Croft et al. (2009)(4) und Manning et al. (2008)(5) stammen die ersten Lehrbücher, die sowohl die webbasierte Suche als auch das traditionelle IR abdecken. Hearst (2009)(6) behandelt Benutzeroberflächen für die Websuche. Die TREC-Konferenz, die vom National Institute of Standards and Technology (NIST) der US-Regierung organisiert wird, veranstaltet einen jährlichen Wettbewerb für IR-Systeme und veröffentlicht einen Tagungsband mit den Ergebnissen. In den ersten sieben Jahren des Wettbewerbs verdoppelte sich die Leistung des IR ungefähr.
Das beliebteste Modell für IR ist das Vektorraummodell (Salton et al., 1975)(7). Saltons Arbeit dominierte die frühen Jahre des Fachgebiets. Es gibt zwei alternative probabilistische Modelle, eines von Ponte und Croft (1998)(8) und eines von Maron und Kuhns (1960)(9) und Robertson und Sparck Jones (1976)(10). Lafferty und Zhai (2001)(11) zeigen, dass die Modelle auf derselben gemeinsamen Wahrscheinlichkeitsverteilung basieren, dass aber die Wahl des Modells Auswirkungen auf das Training der Parameter hat. Craswell et al. (2005)(12) beschreiben die BM25-Scoringfunktion. Svore und Burges (2009)(13) beschreiben hingegen, wie BM25 mit einem maschinellen Lernansatz verbessert werden kann, der Klickdaten - Beispiele früherer Suchanfragen und die Ergebnisse, auf die geklickt wurde - einbezieht. Brin und Page (1998)(14) beschreiben den PageRank-Algorithmus und die Implementierung einer Web-Suchmaschine. Kleinberg (1999)(15) beschreibt den HITS-Algorithmus. Silverstein et al. (1998)(16) untersuchen ein Protokoll von einer Milliarde Web-Suchanfragen. Die Zeitschrift Information Retrieval und die Vorgänge der jährlichen SIGIR-Konferenz behandeln die jüngsten Entwicklungen auf diesem Gebiet.

1. Singhal, A., Buckley, C., and Mitra, M. (1996). Pivoted document length normalization. In SIGIR-96,
pp. 21–29.
2. Cruse, D. A. (1986). Lexical Semantics. Cambridge University Press.
3. Robertson, S. E. (1977). The probability ranking principle in IR. J. Documentation, 33, 294–304.
4. Croft, B., Metzler, D., and Stroham, T. (2009). Search Engines: Information retrieval in Practice.
Addison Wesley.
5. Manning, C., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
6. Hearst,M. A. (2009). Search User Interfaces. Cambridge University Press.
7. Salton, G., Wong, A., and Yang, C. S. (1975). A vector space model for automatic indexing. CACM,
18(11), 613–620.
8. Ponte, J. and Croft, W. B. (1998). A language modeling approach to information retrieval. In SIGIR-98, pp. 275–281.
9. Maron, M. E. and Kuhns, J.-L. (1960). On relevance, probabilistic indexing and information retrieval.
CACM, 7, 219–244.
10. Robertson, S. E. and Sparck Jones, K. (1976). Relevance weighting of search terms. J. American Society for Information Science, 27, 129–146.
11. Lafferty, J. and Zhai, C. (2001). Probabilistic relevance models based on document and query generation. In Proc. Workshop on Language Modeling and Information Retrieval.
12. Craswell, N., Zaragoza, H., and Robertson, S. E. (2005). Microsoft Cambridge at trec-14: Enterprise track. In Proc. Fourteenth Text Retrieval Conference.
13. Svore, K. and Burges, C. (2009). A machine learning approach for improved bm25 retrieval. In
Proc. Conference on Information Knowledge Management.
14. Brin, S. and Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. In Proc.
Seventh World Wide Web Conference.
15. Kleinberg, J. M. (1999). Authoritative sources in a hyperlinked environment. JACM, 46(5), 604–632.
16. Silverstein, C., Henzinger, M., Marais, H., and Moricz,M. (1998). Analysis of a very large altavista
query log. Tech. rep. 1998-014, Digital Systems Research Center.


_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente.

Russell I
B. Russell/A.N. Whitehead
Principia Mathematica Frankfurt 1986

Russell II
B. Russell
Das ABC der Relativitätstheorie Frankfurt 1989

Russell IV
B. Russell
Probleme der Philosophie Frankfurt 1967

Russell VI
B. Russell
Die Philosophie des logischen Atomismus
In
Eigennamen, U. Wolf (Hg) Frankfurt 1993

Russell VII
B. Russell
On the Nature of Truth and Falsehood, in: B. Russell, The Problems of Philosophy, Oxford 1912 - Dt. "Wahrheit und Falschheit"
In
Wahrheitstheorien, G. Skirbekk (Hg) Frankfurt 1996

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link
> Gegenargumente gegen Russell
> Gegenargumente zu Information Retrieval ...

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z